#!/usr/bin/env python
# -*- encoding: utf-8 -*-
'''
@文件    :URL.py
@说明    :
@时间    :2020/04/26 10:56:11
@作者    :王舰航
@版本    :3.0
'''
# 给定一个文件，请用正则表达式，逐行匹配提取其中的URL链接信息，并保存到另外一个文件中；
#    提示，文件有1000行，注意控制每次读取的行数；


import re

def func(path,path2):
	with open(path,'r',encoding='utf-8')as f:
		res=f.read()
        # print(res)
	obj=re.findall(r'http?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+',res)
	with open(path2, 'w', encoding='utf-8')as f2:
		for i in obj:
			l1=i.split('<br>')
			l1.append('\n')
			for j in l1:
				f2.write(j+'\n')


if __name__ == '__main__':
	path=r'C:\\Users\\wbw\\Desktop\\Whhpython\\homework7\\webspiderUrl.txt'
	path2=r'C:\\Users\\wbw\\Desktop\\Whhpython\\homework7\\webspiderUrl2.txt'
	func(path,path2)